t 다중 모달 융합을 통한 시맨틱 장면 이해 및 영상 처리 기술
2025-12-16, G30DR
1. 서론: 자율 주행과 컴퓨터 비전에서의 센서 융합 패러다임 변화
현대 컴퓨터 비전(Computer Vision) 기술, 특히 자율 주행(Autonomous Driving)과 지능형 로봇(Intelligent Robotics) 분야에서 가장 시급한 과제 중 하나는 환경의 불확실성을 극복하고 인지 시스템의 신뢰성을 확보하는 것이다. 가시광선 영역의 정보를 취득하는 RGB 카메라는 높은 해상도와 풍부한 텍스처(Texture), 색상 정보를 제공하여 객체 인식과 시맨틱 세그멘테이션(Semantic Segmentation)의 주류 센서로 자리 잡았다. 그러나 RGB 센서는 본질적으로 광학적 특성에 의존하기 때문에 조명 조건이 열악한 야간, 터널 진출입 시의 급격한 노출 변화, 또는 직사광선에 의한 눈부심(Glare) 등 비정형적인 조명 환경에서는 정보량이 급격히 소실되거나 왜곡되는 한계를 가진다.1
이러한 단일 모달리티(Unimodality)의 한계를 극복하기 위해 열화상(Thermal/Infrared) 카메라와의 융합이 대두되었다. 열화상 센서는 물체의 열 복사(Thermal Radiation)를 감지하므로 조명 조건에 무관하게 생명체나 차량의 엔진 열 등을 포착할 수 있어 주간과 야간 모두에서 일관된 정보를 제공한다. 하지만 열화상 이미지는 텍스처 정보가 부족하고 해상도가 낮으며, 배경과 객체의 경계가 모호해지는 ‘열 크로스오버(Thermal Crossover)’ 현상이 발생할 수 있다. 따라서 RGB와 열화상(RGB-T) 데이터를 효과적으로 결합하여 각 센서의 단점을 상호 보완하는 다중 모달 센서 퓨전(Multi-modal Sensor Fusion) 기술이 필수적이다.2
이 맥락에서 등장한 IGFNet은 기존의 단순한 결합 방식을 넘어, 환경적 맥락(Context)이나 데이터 간의 상호작용(Interaction)을 명시적으로 모델링하여 융합 프로세스를 제어하는 차세대 신경망 아키텍처이다. 본 보고서는 Haotian Li와 Yuxiang Sun 등이 제안한 **Illumination-Guided Fusion Network (IGFNet)**를 중심으로 RGB-T 시맨틱 세그멘테이션의 기술적 진보를 상세히 분석한다.2 아울러, 초분광 영상(Hyperspectral Image) 처리와 이미지 미학 평가(Image Aesthetics Assessment) 분야에서 Interaction-Guided Fusion Network라는 동일한 약칭으로 제안된 최신 연구들5까지 포괄하여, ‘가이드 기반 융합(Guided Fusion)’ 방법론이 현대 딥러닝 연구에서 가지는 중요성과 파급 효과를 총체적으로 고찰한다.
2. RGB-T 시맨틱 세그멘테이션을 위한 IGFNet (Illumination-Guided Fusion Network)
2.1 연구 배경 및 기존 방법론의 한계
초기 RGB-T 세그멘테이션 연구들은 주로 두 가지 융합 전략에 집중했다. 첫째는 입력단에서 이미지를 채널 단위로 합치는 초기 융합(Early Fusion)이고, 둘째는 각 모달리티의 특징을 추출한 뒤 네트워크 후반부에서 결합하는 후기 융합(Late Fusion)이다. MFNet3이나 RTFNet4과 같은 선구적인 모델들은 CNN(Convolutional Neural Network)을 기반으로 특징 추출 및 융합을 시도했으나, 조명 조건에 따라 RGB 정보의 신뢰도가 달라진다는 점을 간과했다.
예를 들어, 야간에 가로등이 없는 도로에서는 RGB 정보가 거의 노이즈에 가깝지만, 기존 네트워크들은 이를 열화상 정보와 동등한 비중으로 처리하거나 고정된 가중치를 사용하여 융합 효율을 저하시켰다. 반대로 대낮의 상황에서는 RGB의 풍부한 텍스처 정보가 열화상보다 유용함에도 불구하고, 이를 선택적으로 강조하지 못했다. 이러한 ’무차별적 융합(Naive Fusion)’의 문제를 해결하기 위해 IGFNet은 “조명(Illumination)“이라는 물리적 지표를 네트워크 내부의 가이드 신호로 도입하는 혁신적인 접근법을 제시했다.2
2.2 IGFNet의 핵심 아키텍처 및 작동 원리
IGFNet은 크게 두 개의 인코더(Encoder)와 하나의 디코더(Decoder)로 구성된 구조를 채택하고 있다. 이는 최근 CMX7 등에서 검증된 2-스트림(Two-stream) 구조를 계승한 것이지만, **조명 추정 모듈(IEM)**과 **조명 유도 교차 모달 보정 모듈(IGCM-RM)**이라는 독창적인 구성 요소를 통해 차별화를 꾀했다.
2.2.1 조명 추정 모듈 (IEM: Illumination Estimation Module)
IEM은 입력된 RGB 이미지로부터 조명 조건을 픽셀 단위로 정량화하여 ’가중치 마스크(Weight Mask)’를 생성하는 전처리 단계이다. 딥러닝 네트워크가 암묵적으로 조명을 학습하기를 기대하는 대신, 명시적인 알고리즘을 통해 조명 정보를 주입하는 것이 특징이다.
-
그레이스케일 변환 (Grayscale Conversion): 먼저 RGB 이미지의 3개 채널(R, G, B)의 평균값을 계산하여 조도(Illuminance)를 반영하는 단일 채널 그레이스케일 이미지를 생성한다. 이는 색상 정보를 배제하고 순수한 밝기 정보만을 추출하기 위함이다.2
-
가우시안 매핑 (Gaussian Mapping): 추출된 밝기 값이 정보의 유용성을 대변하도록 변환한다. 여기서 핵심 가설은 “너무 어둡거나(0) 너무 밝은(255) 영역보다는, 적절한 노출을 가진 중간 밝기 영역이 가장 풍부한 텍스처 정보를 포함한다“는 것이다. 이를 구현하기 위해 가우시안 함수를 사용한다.
f(x) = \exp \left( - \frac{(x - \mu)^2}{2\sigma^2} \right)
여기서 x는 0과 1 사이로 정규화된 픽셀 밝기 값이다. 하이퍼파라미터 \mu는 가우시안 분포의 중심을 결정하며, \sigma는 분포의 폭을 결정한다. 연구진은 실험을 통해 \mu = 0.5, \sigma = 0.15를 최적값으로 선정했다.2
- \mu = 0.5의 의미: 이미지 히스토그램상 중간값인 0.5 부근의 픽셀에 1에 가까운 가중치를 부여한다. 반면 0(완전한 어둠)이나 1(과노출/눈부심)에 가까운 픽셀은 가중치가 0에 수렴하게 된다.
- 결과물: 생성된 가중치 마스크 M은 RGB 이미지의 각 픽셀이 세그멘테이션에 얼마나 기여할 수 있는지를 나타내는 신뢰도 지도(Confidence Map) 역할을 한다.
2.2.2 조명 유도 교차 모달 보정 모듈 (IGCM-RM: Illumination-Guided Cross-Modal Rectification Module)
IEM에서 생성된 가중치 마스크는 IGCM-RM으로 전달되어, 인코더에서 추출된 RGB 특징(F_{RGB})과 열화상 특징(F_{T})을 보정(Rectification)한다. 이 과정은 상호 보완적으로 작동한다.
-
RGB 특징 보정: RGB 특징 맵에는 가중치 마스크 M이 직접 적용된다. 이를 통해 조명 조건이 양호한 영역의 특징은 보존하고, 신뢰도가 낮은 영역의 특징은 억제한다.
-
열화상 특징 보정: 열화상 특징 맵에는 역 마스크(1 - M)가 적용된다. 즉, RGB 정보가 부실한 영역(어둠, 눈부심)에서는 열화상 정보에 높은 가중치를 부여하여 정보의 공백을 메운다.
R_{RGB} = F_{RGB} \odot M
R_{T} = F_{T} \odot (1 - M)
여기서 \odot은 요소별 곱(Element-wise Multiplication)을 의미한다. 이렇게 보정된 특징들은 결합(Concatenation)되어 다음 단계의 융합 모듈로 전달된다.2
2.2.3 특징 융합 모듈 (FFM) 및 SegFormer 백본
IGFNet은 특징 추출기로 SegFormer의 MixTransformer(MiT) 백본을 사용한다.2 CNN 기반의 ResNet을 사용했던 RTFNet과 달리, 트랜스포머 기반 백본은 전역적인 문맥 정보(Global Context)를 파악하는 데 유리하다. IGCM-RM을 통과한 보정된 특징들은 CMX7에서 제안된 것과 유사한 FFM(Feature Fusion Module)을 거치며, 여기서 채널 주의(Channel Attention)와 공간 주의(Spatial Attention) 메커니즘을 통해 다시 한번 정제된다.
2.3 성능 평가 및 비교 분석
IGFNet의 성능 검증은 주로 RGB-T 세그멘테이션의 표준 벤치마크인 MFNet 데이터셋을 통해 수행되었다. MFNet 데이터셋은 복잡한 도심 환경에서 촬영된 1,569쌍의 RGB-T 이미지를 포함하며, 주간(Daytime) 820장, 야간(Nighttime) 749장으로 구성되어 있어 조명 변화에 대한 강인함을 테스트하기에 최적화되어 있다.3
2.3.1 정량적 성능 비교 (Quantitative Comparison)
다음 표는 MFNet 데이터셋에서 IGFNet과 주요 경쟁 모델들의 성능(mIoU, mAcc)을 비교한 것이다.
| 모델 (Model) | 백본 (Backbone) | mIoU (%) | mAcc (%) | 특징 및 비고 |
|---|---|---|---|---|
| IGFNet (제안 모델) | MiT-B2 | 59.0 ~ 60.5 | - | 조명 가이드, SegFormer 기반 2 |
| CMX | MiT-B2 | 58.9 | - | Cross-Modal Fusion SOTA 10 |
| CRM-RGBTSeg | Swin-T | 61.4 | - | 최신 Masking 전략 사용 8 |
| HAPNet | - | ~58.1 | - | 비대칭적 특징 융합 11 |
| FEANet | - | 52.3 | - | Feature Enhancement Attention 2 |
| RTFNet | ResNet-152 | 53.2 | 62.2 | CNN 기반 초기 SOTA 4 |
| MFNet | - | 45.1 | - | 경량화 초기 모델 12 |
표 1: MFNet 데이터셋에서의 주요 RGB-T 세그멘테이션 모델 성능 비교. (데이터 소스: 2)
- 분석:
- RTFNet 대비 성능 향상: IGFNet은 ResNet-152라는 매우 깊은 CNN 백본을 사용하는 RTFNet보다 약 6~7%p 높은 mIoU를 달성했다. 이는 단순한 네트워크 깊이보다는 모달리티 간의 정보 선별 능력이 성능에 더 큰 영향을 미침을 시사한다.
- Transformer 기반 모델 간 경쟁: CMX(MiT-B2)와 비교했을 때 IGFNet은 동등하거나 소폭 우위의 성능을 보인다. 그러나 조명 변화가 극심한 특정 클래스(예: 야간의 검은색 차량, 눈부심 속의 보행자)에서는 IEM의 효과로 인해 더 견고한 검출 능력을 발휘한다.2
- 최신 경량화 모델과의 비교: 최근 발표된 CSFNet8이나 PEAFusion12과 같은 모델들은 파라미터 효율성을 강조하며 IGFNet에 근접하거나 능가하는 성능을 보이기도 한다. 이는 IGFNet이 제시한 ‘가이드 융합’ 개념이 경량화된 구조로도 발전할 여지가 있음을 보여준다.
2.3.2 정성적 분석 및 시각화 (Qualitative Analysis)
실험 결과의 시각화 자료2에 따르면, IGFNet의 장점은 극한의 조명 환경에서 두드러진다.
- 눈부심(Glare) 상황: 터널 출구 등에서 태양광으로 인해 RGB 이미지가 하얗게 날아간(Saturated) 경우, 가우시안 매핑에 의해 해당 영역의 RGB 가중치는 0에 수렴한다. 결과적으로 네트워크는 열화상 정보에 전적으로 의존하게 되어, 눈부심 속에 가려진 차량의 윤곽을 정확히 복원한다.
- 완전한 어둠(Darkness): 가로등이 없는 야간 도로에서도 유사하게 RGB의 가중치를 낮추고 열화상을 강조하여 보행자를 놓치지 않는다.
- 주간 그림자(Daytime Shadow): 열화상 이미지는 그림자 영역과 비그림자 영역의 온도 차이가 크지 않아 텍스처가 뭉개질 수 있다. 이때 IGFNet은 조도가 적절한 RGB 정보를 우선시하여 도로의 경계선이나 차선과 같은 상세 정보를 선명하게 세그멘테이션한다.
2.3.3 절제 연구 (Ablation Study)
IEM과 IGCM-RM의 유효성을 검증하기 위한 절제 연구 결과는 다음과 같다.2
- 모듈 적용 위치: 인코더의 4개 스테이지 중 어느 단계에 모듈을 적용하느냐에 따라 성능 차이가 발생했다. 실험 결과, 1, 2, 3단계(저수준 및 중수준 특징)에 모두 적용하는 것이 가장 좋은 성능(Variant G)을 보였으며, 모든 단계에 적용하는 것(Variant H)보다 오히려 효율적이었다. 이는 고수준(High-level) 특징 단계에서는 이미 추상화가 많이 진행되어 픽셀 단위의 조명 가이드가 덜 효과적일 수 있음을 시사한다.
- 연산 효율성: IEM과 IGCM-RM을 추가함에 따른 연산량(FLOPs)과 파라미터 수의 증가는 미미한 수준이었다. 이는 복잡한 학습 가능한 레이어 대신, 결정론적(Deterministic)인 가우시안 연산을 사용했기 때문이다.
2.4 한계점 및 향후 과제
Li 등은 논문의 결론부에서 IGFNet의 한계로 **시간적 일관성(Temporal Consistency)**의 부족을 언급했다.2 단일 프레임 이미지에 대한 세그멘테이션 정확도는 높지만, 연속된 비디오 프레임에 적용할 경우 인접한 프레임 간의 예측 결과가 일관되지 않고 깜빡이는 현상이 발생할 수 있다. 이는 자율 주행의 의사 결정 시스템에 혼란을 줄 수 있으므로, 향후 연구에서는 비디오 기반의 학습이나 시간적 정보를 통합하는 모듈의 추가가 필요하다. 또한, 제한된 MFNet 데이터셋의 크기를 극복하기 위한 합성 데이터 증강(Synthetic Data Augmentation) 연구도 병행되고 있다.13
3. IGFNet의 확장: 다양한 도메인에서의 “Interaction-Guided Fusion”
’IGFNet’이라는 약어는 RGB-T 세그멘테이션뿐만 아니라, 초분광 영상 처리 및 이미지 미학 평가 분야에서도 **“Interaction-Guided Fusion Network”**라는 명칭으로 등장한다. 비록 연구자 그룹은 다르지만, 이들은 공통적으로 다중 모달 데이터 간의 ’상호작용’을 가이드로 활용한다는 철학을 공유한다.
3.1 초분광 팬샤프닝을 위한 IGFNet (Interaction-Guided Fusion)
2025년 *IEEE Transactions on Geoscience and Remote Sensing (TGRS)*에 게재된 Zhennan Xu 등의 연구5는 초분광 영상(HSI)의 융합을 다룬다.
- 문제 정의: 초분광 영상은 스펙트럼 해상도는 높지만 공간 해상도가 낮다. 이를 고해상도 흑백 영상(Panchromatic, PAN)과 융합하여 고해상도 초분광 영상을 생성하는 팬샤프닝(Pansharpening) 기술이 필요하다.
- 접근법: 기존 방법들은 스펙트럼 왜곡(Spectral Distortion) 문제를 겪었다. 이 연구에서 제안된 IGFNet은 PAN 이미지의 공간적 구조 정보가 HSI에 주입될 때, 스펙트럼 특성을 훼손하지 않도록 ‘상호작용 가이드’ 메커니즘을 사용한다.
- 성과: Pavia University 데이터셋 실험에서 기존의 MDA-Net 대비 파라미터 수를 줄이면서도 PSNR(최대 신호 대 잡음비)을 2.09% 향상시키고, 스펙트럼 각도 매핑(SAM) 오류를 2.6% 감소시키는 성과를 거두었다.
3.2 이미지 미학 평가를 위한 MIGF-Net (Multimodal Interaction-Guided Fusion)
Pattern Recognition 저널(2025)에 발표된 Yun Liu 등의 연구6는 MIGF-Net을 제안했다.
- 문제 정의: 이미지의 미학적 품질(Aesthetics)을 평가할 때, 시각적 정보만으로는 주관적인 감성을 온전히 파악하기 어렵다.
- 접근법: 이미지 자체의 시각적 특징과, 해당 이미지에 달린 댓글이나 태그 등의 텍스트/속성(Attribute) 정보를 함께 활용한다. MIGF-Net은 시각 정보와 텍스트 정보가 서로 상호작용하며 미학적 점수를 예측하도록 설계되었다.
- 성과: AVA 데이터셋 등 4개의 공개 데이터셋에서 SOTA(State-of-the-Art) 성능을 달성했으며, 시각적 속성(Rule of Thirds, Color Harmony 등)을 명시적으로 활용함으로써 평가 결과에 대한 설명 가능성(Explainability)을 높였다.
4. 다중 모달 융합 기술의 심층 고찰 및 결론
4.1 ’Naive Fusion’에서 ’Informed/Guided Fusion’으로의 진화
본 보고서에서 분석한 여러 형태의 IGFNet 연구들은 딥러닝 기반 센서 융합 기술이 단순한 ’결합’에서 ’지능적 제어’로 진화하고 있음을 보여준다.
- 물리적 지식의 주입: RGB-T IGFNet은 “조도에 따른 정보량 변화“라는 물리적 원리를 가우시안 마스크라는 수학적 형태로 네트워크에 주입했다. 이는 데이터 주도(Data-driven) 학습의 한계를 도메인 지식(Domain Knowledge)으로 보완하는 모범 사례이다.
- 상호작용의 모델링: Hyperspectral 및 Aesthetics 분야의 IGFNet은 모달리티 간의 관계성을 명시적으로 모델링하여, 하나의 데이터가 다른 데이터의 해석을 돕는 가이드 역할을 하도록 설계했다.
4.2 아키텍처의 수렴: Transformer와 CNN의 공존
IGFNet(RGB-T)은 SegFormer를 백본으로 사용하면서도, 세밀한 특징 보정에는 픽셀 단위 연산(IEM, IGCM-RM)을 결합했다. 이는 전역적인 문맥 이해(Transformer의 강점)와 국소적인 신호 처리(Pixel-wise operation)가 고성능 세그멘테이션을 위해 필수적으로 공존해야 함을 시사한다. 최근 연구 흐름 또한 순수 CNN이나 순수 Transformer보다는, 이들의 장점을 결합한 하이브리드 구조로 나아가고 있다.
4.3 향후 연구 방향
IGFNet이 남긴 과제와 향후 발전 방향은 다음과 같다.
- 시간적 일관성 확보: 자율 주행과 같은 실시간 애플리케이션에서는 단일 프레임 성능뿐만 아니라 비디오 시퀀스 상의 안정성이 중요하다. 시간 축을 고려한 3D Conv이나 Recurrent 모듈, 혹은 Video Transformer의 도입이 예상된다.
- 데이터 부족 해결: MFNet 등 소규모 데이터셋에 과적합(Overfitting)되는 것을 방지하기 위해, 합성 데이터(Synthetic Data)를 활용한 사전 학습(Pre-training)이나 전이 학습(Transfer Learning) 기법이 더욱 중요해질 것이다.
- 파운데이션 모델과의 결합: SAM(Segment Anything Model)과 같은 거대 모델을 RGB-T 도메인에 적응(Adaptation)시키거나, 지식 증류를 통해 경량화하는 연구가 활발히 진행될 것이다.15
결론적으로, IGFNet은 다중 모달 센서 융합 분야에서 **“가이드(Guide)”**라는 개념을 통해 정보 융합의 효율성과 해석 가능성을 획기적으로 높인 연구이다. 조명 변화가 극심한 야생의 도로 환경에서부터 정밀한 위성 영상 분석, 그리고 인간의 주관적 감성을 다루는 미학 평가에 이르기까지, IGFNet이 제시한 상호작용 및 가이드 기반 융합 방법론은 차세대 인공지능 시스템의 핵심 기술로 자리 잡을 것이다.
5. 참고 자료
- RGBD Salient Object Detection, Based on Specific Object Imaging, https://www.mdpi.com/1424-8220/22/22/8973
- IGFNet: Illumination-Guided Fusion Network for Semantic Scene …, https://labsun.org/pub/ROBIO2023_igfnet.pdf
- CSANet: Context–Spatial Awareness Network for RGB-T Urban …, https://www.mdpi.com/2313-433X/11/6/188
- RTFNet: RGB-Thermal Fusion Network for Semantic Segmentation …, https://www.semanticscholar.org/paper/RTFNet%3A-RGB-Thermal-Fusion-Network-for-Semantic-of-Sun-Zuo/33937286898f0f7f34673d2e5d97b127a7b514f9
- IGFNet: An Interactive-Guided Fusion Network for Hyperspectral …, https://www.researchgate.net/publication/398397964_IGFNet_An_Interactive-Guided_Fusion_Network_for_Hyperspectral_Pansharpening
- MIGF-Net: Multimodal Interaction-Guided Fusion Network for Image …, https://www.researchgate.net/publication/395316957_MIGF-Net_Multimodal_Interaction-Guided_Fusion_Network_for_Image_Aesthetics_Assessment
- Temporal Consistency for RGB-Thermal Data-based Semantic …, https://ira.lib.polyu.edu.hk/bitstream/10397/113767/1/Li_Temporal_Consistency_RGB-Thermal.pdf
- (PDF) Csfnet: A Cosine Similarity Fusion Network for Real-Time Rgb …, https://www.researchgate.net/publication/381884567_CSFNet_A_Cosine_Similarity_Fusion_Network_for_Real-Time_RGB-X_Semantic_Segmentation_of_Driving_Scenes
- IGFNet:基于RGB-热成像的光照引导融合网络用于语义场景理解 …, https://beta.hyper.ai/cn/papers/igfnet-illumination-guided-fusion-network-for
- (PDF) CAFNet: Cross-Modal Adaptive Fusion Network with Attention …, https://www.researchgate.net/publication/394304187_CAFNet_Cross-Modal_Adaptive_Fusion_Network_with_Attention_and_Gated_Weighting_for_RGB-T_Semantic_Segmentation
- IGFNet: Illumination-Guided Fusion Network for Semantic Scene …, https://www.researchgate.net/publication/376779684_IGFNet_Illumination-Guided_Fusion_Network_for_Semantic_Scene_Understanding_using_RGB-Thermal_Images
- PEAFusion, https://labsun.org/pub/INFFUS2025_peafusion.pdf
- Improving RGB-Thermal Semantic Scene Understanding with …, https://ira.lib.polyu.edu.hk/bitstream/10397/113768/1/Li_Improving_RGB-Thermal_Semantic.pdf
- Improving RGB-Thermal Semantic Scene Understanding With …, https://www.researchgate.net/publication/389620195_Improving_RGB-Thermal_Semantic_Scene_Understanding_with_Synthetic_Data_Augmentation_for_Autonomous_Driving
- Complementary Random Masking for RGB-Thermal Semantic …, https://www.researchgate.net/publication/382988621_Complementary_Random_Masking_for_RGB-Thermal_Semantic_Segmentation